% Version control information:
%$HeadURL: http://practicas-spss.googlecode.com/svn/trunk/distribuciones_graficas/distribuciones_graficas.tex $
%$LastChangedDate: 2010-09-27 14:37:11 +0000 (Mon, 27 Sep 2010) $
%$LastChangedRevision: 3 $
%$LastChangedBy: asalber $
%$Id: distribuciones_graficas.tex 3 2010-09-27 14:37:11Z asalber $

\chapter[Distribuciones de Frecuencias y Representaciones Gráficas]{Distribuciones de Frecuencias \\ y Representaciones Gráficas}

\section{Fundamentos teóricos}
Uno de los primeros pasos en cualquier estudio estadístico es el resumen y la descripción de la información contenida en una muestra.
Para ello se van a aplicar algunos métodos de análisis descriptivo, que nos permitirán clasificar y estructurar la información al igual que representarla gráficamente.

Las características que estudiamos pueden ser o no susceptibles de medida; en este sentido definiremos una \emph{variable} como un carácter susceptible de ser medido, es decir, cuantitativo y cuantificable mediante la observación, (por ejemplo el peso de las personas, la edad, etc...), y definiremos un \emph{atributo} como un carácter no susceptible de ser medido, y en consecuencia observable tan sólo cualitativamente (por ejemplo el color de ojos, estado de un paciente, etc...).
Se llaman modalidades a las posibles observaciones de un atributo.

Dentro de los atributos, podemos hablar de \emph{atributos ordinales}, los que presentan algún tipo de orden entre las distintas modalidades, y de \emph{atributos nominales}, en los que no existe ningún orden entre ellas.

Dentro de las variables podemos diferenciar entre \emph{discretas}, si sus valores posibles son valores aislados, y \emph{continuas}, si pueden tomar cualquier valor dentro de un intervalo.

En algunos textos no se emplea el término \emph{atributo} y se denominan a todos los caracteres \emph{variables}. En ese caso se distinguen \emph{variables cuantitativas} para designar las que aquí hemos definido como \emph{variables}, y \emph{variables cualitativas} para las que aquí se han llamado \emph{atributos}.
En lo sucesivo se aplicará este criterio para simplificar la exposición.

\subsection{Cálculo de Frecuencias}

Para estudiar cualquier característica, lo primero que deberemos hacer es un recuento de las observaciones, y el número de repeticiones de éstas. Para cada valor $x_i$ de la muestra se define:
\begin{description}
\item[Frecuencia absoluta] Es el número de veces que aparece cada uno de los valores $x_i$ y se denota por $n_i$.

\item [Frecuencia relativa] Es el número de veces que aparece cada valor $x_i$ dividido entre el tamaño muestral y se denota por $f_i$

\[f_i=\frac{n_i}{n}\]

Generalmente las frecuencias relativas se multiplican por $100$ para que representen el tanto por ciento.
\end{description}

En el caso de que exista un orden entre los valores de la variable, a veces nos interesa no sólo conocer el número de veces que se repite un determinado valor, sino también el número de veces que aparece dicho valor y todos los anteriores.
A este tipo de frecuencias se le denomina \emph{frecuencias acumuladas}.

\begin{description}
\item [Frecuencia absoluta acumulada] Es la suma de las frecuencias absolutas de los valores menores que $x_i$ más la frecuencia absoluta de $x_i$, y se denota por $N_i$

\[N_i=n_1+n_2+\ldots+n_i\]

\item [Frecuencia relativa acumulada] Es la suma de las frecuencias relativas de los valores menores que $x_i$ más la frecuencia relativa de $x_i$, y se denota por $F_i$

\[F_i=f_1+f_2+\ldots+f_i\]
\end{description}

Los resultados de las observaciones de los valores de una variable estadística en una muestra suelen representarse en forma de tabla.
En la primera columna se representan los valores $x_i$ de la variable colocados en orden creciente, y en la siguiente columna los valores de las frecuencias absolutas correspondientes $n_i$.

Podemos completar la tabla con otras columnas, correspondientes a las frecuencias relativas, $f_i$, y a las frecuencias acumuladas, $N_i$ y $F_i$.
Al conjunto de los valores de la variable observados en la muestra junto con sus frecuencias se le conoce como \emph{distribución de frecuencias muestral}.

\begin{ejemplo}
En una encuesta a 25 matrimonios, sobre el número de hijos que tienen, se obtienen los siguientes datos:

1, 2, 4, 2, 2, 2, 3, 2, 1, 1, 0, 2, 2, 0, 2, 2, 1, 2, 2, 3, 1, 2,
2, 1, 2.

Los valores distintos de la variable son: 0, 1, 2, 3 y 4. Así frecuencia absoluta sería:
\[
\begin{array}{|c|l|r|}
\hline
x_i & Recuento & n_i \\ \hline
0 & II & 2 \\
1 & IIIII I & 6 \\
2 & IIIII IIIII IIII & 14 \\
3 & II & 2 \\
4 & I & 1 \\ \hline
\end{array}
\]

Y la tabla de distribución de las frecuencias sería:
\[
\begin{array}{|c|c|c|c|c|}
\hline
x_i & n_i & f_i & N_i & F_i \\ \hline
0 & 2 & 0.08 & 2 & 0.08 \\ \hline
1 & 6 & 0.24 & 8 & 0.32 \\ \hline
2 & 14 & 0.56 & 22 & 0.88 \\ \hline
3 & 2 & 0.08 & 24 & 0.96 \\ \hline
4 & 1 & 0.04 & 25 & 1 \\ \hline
\mbox{Suma} & 25 & 1 & \multicolumn{2}{c}{} \\
\cline{1-3}
\end{array}
\]

\end{ejemplo}

Cuando el tamaño de la muestra es grande en el caso de variables discretas con muchos valores distintos de la variable, y en cualquier caso si se trata de variables continuas, se agrupan las observaciones en \emph{clases}, que son intervalos contiguos, preferiblemente de la misma amplitud.

Para decidir el número de clases a considerar, una regla frecuentemente utilizada es tomar el entero más próximo a $\sqrt{n}$ donde $n$ es el número de observaciones en la muestra.
Pero conviene probar con distintos números de clases y escoger el que proporcione una descripción más clara.
Así se prefijan los intervalos $(a_{i-1},a_i] , i=1,2,\ldots,l$ siendo $a=a_0<a_1<....<a_l=b$ de tal modo que todos los valores observados estén dentro del intervalo $(a, b]$, y sin que exista ambig\"{u}edad a la hora de decidir a qué intervalo pertenece cada dato.

Llamaremos \emph{marca de clase} al punto medio de cada intervalo. 
Así la \emph{marca de la clase} $(a_{i-1},a_i]$ es el punto medio
$x_i$ de dicha clase, es decir
\[ x_i=\frac{a_{i-1}+a_i}{2} \]

En el tratamiento estadístico de los datos agrupados, todos los valores que están en una misma clase se consideran
iguales a la marca de la clase.
De esta manera si en la clase $(a_{i-1},a_i]$ hay $n_i$ valores observados, se puede asociar la marca de la clase $x_i$ con esta frecuencia $n_i$.


\subsection{Representaciones Gráficas}

Hemos visto que la tabla estadística resume los datos de una muestra, de forma que ésta se puede analizar de una manera más sistemática y resumida.
Para conseguir una percepción visual de las características de la población resulta muy útil el uso de gráficas y diagramas. Dependiendo del tipo de variable y de si trabajamos con datos agrupados o no, se utilizarán distintos tipos.


\subsubsection{Diagrama de barras y polígono de frecuencias}

Consiste en representar sobre el eje de abscisas de un sistema de ejes coordenados los distintos valores de la variable $X$, y levantar sobre cada uno de esos puntos una barra cuya altura sea igual a la frecuencia absoluta o relativa correspondiente a ese valor, tal y como se muestra en la figura \ref{g:diagramaabsolutas}.
Esta representación se utiliza para distribuciones de frecuencias con pocos valores distintos de la variable, tanto cuantitativas como cualitativas, y en este ultimo caso se suele representar con rectángulos de altura igual a la frecuencia de cada modalidad.

En el caso de variables cuantitativas se puede representar también el diagrama de barras de las frecuencias acumuladas, tal y como se muestra en la figura \ref{g:diagramaacumuladas}.

Otra representación habitual es el \emph{polígono de frecuencias} que consiste en la línea poligonal cuyos vertices son los puntos $(x_i,n_i)$, tal y como se ve en la figura \ref{g:poligonoabsolutas}, y si en vez de considerar las frecuencias absolutas o relativas se consideran las absolutas o relativas acumuladas, se obtiene el \emph{polígono de frecuencias acumuladas}, como se ve en la figura \ref{g:poligonoacumuladas}.

\begin{figure}[h!]
\centering
\subfigure[Diagrama de barras de frecuencias absolutas.]{\label{g:diagramaabsolutas}
\scalebox{0.65}{\input{distribuciones_graficas/img/diagrama_barras_frecuencia_absoluta}}}\qquad
\subfigure[Diagrama de barras de frecuencias absolutas acumuladas.]{\label{g:diagramaacumuladas}
\scalebox{0.65}{\input{distribuciones_graficas/img/diagrama_barras_frecuencia_acumulada}}}\\
\subfigure[Polígono de frecuencias absolutas.]{\label{g:poligonoabsolutas}
\scalebox{0.65}{\input{distribuciones_graficas/img/poligono_frecuencia_absoluta}}}\qquad
\subfigure[Polígono de frecuencias absolutas acumuladas]{\label{g:poligonoacumuladas}
\scalebox{0.65}{\input{distribuciones_graficas/img/poligono_frecuencia_acumulada}}}
\caption{Diagramas de barras y polígonos asociados para datos no
agrupados.}
\end{figure}


\subsubsection{Histogramas}

Este tipo de representaciones se utiliza en variables continuas y en variables discretas en que se ha realizado una agrupación de las observaciones en clases. Un \emph{histograma} es un conjunto de rectángulos, cuyas bases son los intervalos de clase $(a_{i-1},a_i]$ sobre el eje $OX$ y su altura la correspondiente frecuencia absoluta
, relativa, absoluta acumulada, o relativa acumulada, tal y como se muestra en la figuras~\ref{g:histogramaabsolutas} y \ref{g:histogramaacumuladas}.
 
Si unimos los puntos medios de las bases superiores de los rectángulos del histograma, se obtiene el \emph{polígono de frecuencias} correspondiente a datos agrupados (figura~\ref{g:poligonoabsolutasagrupado}).

El polígono de frecuencias también se puede utilizar para representar las frecuencias acumuladas, tanto absolutas como relativas.
En este caso la línea poligonal se traza uniendo los extremos derechos de las bases superiores de los rectángulos del histograma de frecuencias acumuladas, en lugar de los puntos centrales (figura~\ref{g:poligonoacumuladasagrupado}).

\begin{figure}[h!]
\centering
\subfigure[Histograma de frecuencias absolutas.]{\label{g:histogramaabsolutas}
\scalebox{0.65}{\input{distribuciones_graficas/img/histograma_frecuencia_absoluta}}}\qquad
\subfigure[Histograma de frecuencias absolutas acumuladas.]{\label{g:histogramaacumuladas}
\scalebox{0.65}{\input{distribuciones_graficas/img/histograma_frecuencia_acumulada}}}\\
\subfigure[Polígono de frecuencias absolutas.]{\label{g:poligonoabsolutasagrupado}
\scalebox{0.65}{\input{distribuciones_graficas/img/poligono_frecuencia_absoluta_agrupado}}}\qquad
\subfigure[Polígono de frecuencias absolutas acumuladas]{\label{g:poligonoacumuladasagrupado}
\scalebox{0.65}{\input{distribuciones_graficas/img/poligono_frecuencia_acumulada_agrupado}}}
\caption{Histograma y polígonos asociados para datos agrupados.}
\end{figure}

Para variables cualitativas y cuantitativas discretas también se pueden usar las superficies representativas; de éstas, las más empleadas son los \emph{sectores circulares}.


\subsubsection{Sectores circulares o diagrama de sectores}

Es una representación en la que un círculo se divide en sectores, de forma que los ángulos, y por tanto las áreas respectivas, sean proporcionales a la frecuencia.

\begin{ejemplo}
Se está haciendo un estudio en una población el grupo sanguíneo de sus ciudadanos. Para ello disponemos de una muestra de 30 personas, con los siguientes resultados: 5 personas con grupo 0, 14 con grupo A, 8 con grupo B y  3 con grupo AB.

El el diagrama de sectores de frecuencias relativas correspondiente aparece en la figura~\ref{g:diagramasectoresgruposanguineo}.

\begin{figure}[h!]
\centering
\label{g:diagramasectoresgruposanguineo}
\scalebox{0.7}{\input{distribuciones_graficas/img/diagrama_sectores_grupo_sanguineo}}
\caption{Diagrama de sectores de frecuencias relativas del grupo sanguineo}
\end{figure}
\end{ejemplo}


\subsubsection{Diagrama de cajas y datos atípicos}
Los datos extremadamente altos o bajos, en comparación con los del resto de la muestra, reciben el nombre de datos influyentes o \emph{datos atípicos}.
Tales datos que, como su propio nombre indica, pueden modificar las conclusiones de un estudio, deben ser considerados atentamente antes de aceptarlos, pues no pocas veces podrán ser, simplemente, datos erróneos. La representación gráfica más apropiada para detectar estos datos es el \emph{diagrama de cajas}.
Este diagrama está formado por una caja que contiene el 50\% de los datos centrales de la distribución, y unos segmentos que salen de la caja, que indican los límites a partir de los cuales los
datos se consideran atípicos.
En la figura \ref{g:cajas} se puede observar un ejemplo en el que aparecen dos datos atípicos.

\begin{figure}[h!]
\begin{center}
\scalebox{0.8}{\input{distribuciones_graficas/img/diagrama_caja}}
\caption{Diagrama de cajas para una muestra de recién nacidos. Existen dos niños con pesos atípicos, uno con peso extremadamente bajo $1.9$ kg, y otro con peso extremadamente alto $4.3$ kg.}
\label{g:cajas}
\end{center}
\end{figure}

%\newpage

\section{Ejercicios resueltos}

\begin{enumerate}[leftmargin=*]
\item  Se realizó una encuesta a 40 personas de más de 70 años sobre el número de medicamentos distintos que tomaban habitualmente. El resultado de dicha encuesta fue el siguiente:
\begin{eqnarray*}
&&3-1-2-2-0-1-4-2-3-5-1-3-2-3-1-4-2-4-3-2 \\
&&3-5-0-1-2-0-2-3-0-1-1-5-3-4-2-3-0-1-2-3
\end{eqnarray*}
Se pide:

\begin{enumerate}
\item  Crear la variable \variable{medicamentos} e introducir los datos.

\item  Construir la tabla de frecuencias.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Analizar->Estadísticos descriptivos->Frecuencias}. 
\item Seleccionar la variable \variable{medicamentos} en el campo \opcion{Variables} del cuadro de diálogo. 
\item Activar la opción \opcion{Mostrar tabla de frecuencias} y hacer click en el botón \boton{Aceptar}.
\end{enumerate}}
\end{indicacion}

\item  Dibujar el diagrama de barras de las frecuencias absolutas.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Gráficos->Barras->Definir}. 
\item Seleccionar la variable \variable{medicamentos} en el campo \opcion{Eje de categorías} del cuadro de diálogo y seleccionar la opción \opcion{Nº de casos}.
\end{enumerate}}
\end{indicacion}

\item  Dibujar el polígono de frecuencias absolutas.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Gráficos->Líneas->Definir}. 
\item Seleccionar la variable \variable{medicamentos} en el campo \opcion{Eje de categorías} del cuadro de diálogo
 y seleccionar la opción \opcion{Nº de casos}.
\end{enumerate}}
\end{indicacion}

\item  Dibujar el diagrama de barras de las frecuencias relativas acumuladas.
\begin{indicacion}{
Repetir los mismos pasos del apartado anterior pero seleccionando esta vez la opción \opcion{\% acum. de casos}.}
\end{indicacion}

\item  Dibujar el diagrama de sectores.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Gráficos->Sectores->Definir}.
\item Seleccionar la variable \variable{medicamentos} en el campo \texttt{Definir sectores por} del cuadro de diálogo.
\end{enumerate}}
\end{indicacion}
\end{enumerate}

\item  En un hospital se realizó un estudio sobre el número de personas que ingresaron en urgencias en el mes de
noviembre. Los datos observados fueron:
\begin{eqnarray*}
&&15-23-12-10-28-7-12-17-20-21-18-13-11-12-26 \\
&&30-6-16-39-22-14-17-21-28-9-16-13-11-16-20
\end{eqnarray*}
Se pide:

\begin{enumerate}
\item  Crear la variable \variable{urgencias} e introducir los datos.

\item  Dibujar el histograma de las frecuencias absolutas pero agrupando en 5 clases desde el 0 hasta el 40.
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Gráficos->Histograma}.
\item Seleccionar la variable \variable{urgencias} en el campo \texttt{Variable} del cuadro de diálogo.
\item Editar el histograma haciendo doble click sobre el.
\item En el editor de gráficos seleccionar el menú \menu{Edición->Seleccionar eje X}.
\item En el cuadro de diálogo que aparece hacer click sobre la pestaña \opcion{Opciones del histograma}, activar la opción \opcion{Personalizado}, introducir el número de intervalos deseado y hacer click en el botón \boton{Aplicar} 
\item Cerrar el editor de gráficos.
\end{enumerate}}
\end{indicacion}

\item  Dibujar el diagrama de cajas. ¿Existe algún dato atípico?
\begin{indicacion}{
\begin{enumerate}
\item Seleccionar el menú \menu{Gráficos->Diagrama de caja...}.
\item Seleccionar la opción \opcion{Resúmenes para distintas variables} y hacer click en el botón \boton{Definir}.
\item Seleccionar la variable \variable{urgencias} en el campo \opcion{Las cajas representan} del cuadro de diálogo y hacer click sobre el botón \boton{Aceptar}.
\end{enumerate}}
\end{indicacion}

\item  En el caso de que exista algún dato atípico, eliminarlo y dibujar el histograma de frecuencias absolutas, de forma que aparezcan clases de amplitud 5, comenzando en el 5 y terminando en el 30.
\begin{indicacion}{
\begin{enumerate}
\item Identificar el caso que corresponde al dato atípico y eliminarlo en el editor de datos. 
\item Repetir los pasos del apartado b) para dibujar el histograma.
\end{enumerate}}
\end{indicacion}
\end{enumerate}

\end{enumerate}


\section{Ejercicios propuestos}
\begin{enumerate}[leftmargin=*]
\item  El número de lesiones padecidas durante una temporada por cada jugador de un equipo de fútbol fue el siguiente:
\begin{center}
0 -- 1 -- 2 -- 1 -- 3 -- 0 -- 1 -- 0 -- 1 -- 2 -- 0 -- 1 \\
1 -- 1 -- 2 -- 0 -- 1 -- 3 -- 2 -- 1 -- 2 -- 1 -- 0 -- 1
\end{center}

Se pide:
\begin{enumerate}
\item Crear la variable lesiones e introducir los datos.
\item Construir la tabla de frecuencias.
\item Dibujar el diagrama de barras de las frecuencias relativas acumuladas.
\item Dibujar el polígono de frecuencias de las frecuencias absolutas acumuladas.
\item Dibujar el diagrama de sectores.
\end{enumerate}


\item Para realizar un estudio sobre la estatura de los estudiantes universitarios, seleccionamos, mediante un proceso de muestreo aleatorio, una muestra de 30 estudiantes, obteniendo los siguientes resultados (medidos en centímetros):
\begin{center}
179, 173, 181, 170, 158, 174, 172, 166, 194, 185,\\
162, 187, 198, 177, 178, 165, 154, 188, 166, 171,\\
175, 182, 167, 169, 172, 186, 172, 176, 168, 187.
\end{center}

Se pide:
\begin{enumerate}
\item  Crear la variable estatura e introducir los datos.
\item  Dibujar el histograma de las frecuencias absolutas agrupando desde 150 a 200 en clases de amplitud 10.
\item  Dibujar el diagrama de cajas. ¿Existe algún dato atípico?.
\end{enumerate}

\end{enumerate}
